RobertDeMilo

Перечислимые типы задача 2

Oct 21st, 2023
78
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 5.79 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9.  
  10. using namespace std;
  11.  
  12.  
  13. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  14.  
  15. string ReadLine() {
  16.     string s;
  17.     getline(cin, s);
  18.     return s;
  19. }
  20.  
  21. int ReadLineWithNumber() {
  22.     int result;
  23.     cin >> result;
  24.     ReadLine();
  25.     return result;
  26. }
  27.  
  28. vector<string> SplitIntoWords(const string& text) {
  29.     vector<string> words;
  30.     string word;
  31.     for (const char c : text) {
  32.         if (c == ' ') {
  33.             words.push_back(word);
  34.             word = "";
  35.         } else {
  36.             word += c;
  37.         }
  38.     }
  39.     words.push_back(word);
  40.    
  41.     return words;
  42. }
  43.    
  44. struct Document {
  45.     int id;
  46.     double relevance;
  47.     int rating;
  48. };
  49.  
  50. enum class DocumentStatus {
  51.     ACTUAL,
  52.     IRRELEVANT,
  53.     BANNED,
  54.     REMOVED,
  55. };
  56.  
  57. class SearchServer {
  58. public:
  59.     void SetStopWords(const string& text) {
  60.         for (const string& word : SplitIntoWords(text)) {
  61.             stop_words_.insert(word);
  62.         }
  63.     }    
  64.    
  65.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  66.         const vector<string> words = SplitIntoWordsNoStop(document);
  67.         const double inv_word_count = 1.0 / words.size();
  68.         for (const string& word : words) {
  69.             word_to_document_freqs_[word][document_id] += inv_word_count;
  70.         }
  71.         documents_.emplace(document_id,
  72.             DocumentData{
  73.                 ComputeAverageRating(ratings),
  74.                 status
  75.             });
  76.     }
  77.  
  78.     vector<Document> FindTopDocuments(const string& raw_query, DocumentStatus status = DocumentStatus::ACTUAL) const {            
  79.         const Query query = ParseQuery(raw_query);
  80.         auto matched_documents = FindAllDocuments(query, status);
  81.        
  82.         sort(matched_documents.begin(), matched_documents.end(),
  83.              [](const Document& lhs, const Document& rhs) {
  84.                  return lhs.relevance > rhs.relevance;
  85.              });
  86.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  87.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  88.         }
  89.         return matched_documents;
  90.     }
  91.    
  92. private:
  93.     struct DocumentData {
  94.         int rating;
  95.         DocumentStatus status;
  96.     };
  97.  
  98.     set<string> stop_words_;
  99.     map<string, map<int, double>> word_to_document_freqs_;
  100.     map<int, DocumentData> documents_;
  101.    
  102.     bool IsStopWord(const string& word) const {
  103.         return stop_words_.count(word) > 0;
  104.     }
  105.    
  106.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  107.         vector<string> words;
  108.         for (const string& word : SplitIntoWords(text)) {
  109.             if (!IsStopWord(word)) {
  110.                 words.push_back(word);
  111.             }
  112.         }
  113.         return words;
  114.     }
  115.    
  116.     static int ComputeAverageRating(const vector<int>& ratings) {
  117.         if (ratings.empty()) {
  118.             return 0;
  119.         }
  120.         int rating_sum = 0;
  121.         for (const int rating : ratings) {
  122.             rating_sum += rating;
  123.         }
  124.         return rating_sum / static_cast<int>(ratings.size());
  125.     }
  126.    
  127.     struct QueryWord {
  128.         string data;
  129.         bool is_minus;
  130.         bool is_stop;
  131.     };
  132.    
  133.     QueryWord ParseQueryWord(string text) const {
  134.         bool is_minus = false;
  135.         // Word shouldn't be empty
  136.         if (text[0] == '-') {
  137.             is_minus = true;
  138.             text = text.substr(1);
  139.         }
  140.         return {
  141.             text,
  142.             is_minus,
  143.             IsStopWord(text)
  144.         };
  145.     }
  146.    
  147.     struct Query {
  148.         set<string> plus_words;
  149.         set<string> minus_words;
  150.     };
  151.    
  152.     Query ParseQuery(const string& text) const {
  153.         Query query;
  154.         for (const string& word : SplitIntoWords(text)) {
  155.             const QueryWord query_word = ParseQueryWord(word);
  156.             if (!query_word.is_stop) {
  157.                 if (query_word.is_minus) {
  158.                     query.minus_words.insert(query_word.data);
  159.                 } else {
  160.                     query.plus_words.insert(query_word.data);
  161.                 }
  162.             }
  163.         }
  164.         return query;
  165.     }
  166.    
  167.     // Existence required
  168.     double ComputeWordInverseDocumentFreq(const string& word) const {
  169.         return log(documents_.size() * 1.0 / word_to_document_freqs_.at(word).size());
  170.     }
  171.  
  172.     vector<Document> FindAllDocuments(const Query& query, DocumentStatus status) const {
  173.         map<int, double> document_to_relevance;
  174.         for (const string& word : query.plus_words) {
  175.             if (word_to_document_freqs_.count(word) == 0) {
  176.                 continue;
  177.             }
  178.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  179.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  180.                 if (documents_.at(document_id).status == status) {
  181.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  182.                 }
  183.             }
  184.         }
  185.        
  186.         for (const string& word : query.minus_words) {
  187.             if (word_to_document_freqs_.count(word) == 0) {
  188.                 continue;
  189.             }
  190.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  191.                 document_to_relevance.erase(document_id);
  192.             }
  193.         }
  194.  
  195.         vector<Document> matched_documents;
  196.         for (const auto [document_id, relevance] : document_to_relevance) {
  197.             matched_documents.push_back({
  198.                 document_id,
  199.                 relevance,
  200.                 documents_.at(document_id).rating
  201.             });
  202.         }
  203.         return matched_documents;
  204.     }
  205. };
Add Comment
Please, Sign In to add comment